Google I/O 人工智能新纪元

大家好,早上好。欢迎来到 Google I/O。我们致力于将最顶尖的模型交到您的手中。自上次 I/O 大会以来,我们已宣布了十余款模型和研究突破,并发布了超过20项主要AI产品和功能

模型飞速进步

模型进展速度尤其令人振奋,您可以看到这里的阶梯式变化。ELO分数(衡量进展的指标之一)自第一代 Gemini Pro以来已提升超过300点

如今,Gemini 1.5 Pro 在LM竞技场排行榜所有类别中独占鳌头。我们更新的1.5 Pro在WebDev Arena上排名第一,现已领先前代版本142 ELO点

300+

ELO 提升

TPU Ironwood: 算力革新

10X

性能提升

42.5

Exaflops/Pod

我们的第七代TPU Ironwood 是首款为大规模思考和推理而设计的产品。它提供的性能是上一代的10倍,每个Pod集成高达惊人的42.5 Exaflops算力。这简直太棒了!它将于今年晚些时候向Google Cloud客户开放。

AI 广泛普及

4亿+

Gemini App 月活用户

尤其在1.5模型推出后,增长和参与度强劲。

15亿+

AI Overviews 月用户

Google搜索将生成式AI带给全球最多用户。

Google Beam: AI视频通讯新篇章

隆重推出 Google Beam,一个全新的AI优先视频通讯平台。Beam使用最先进的新型视频模型,将2D视频流转换为逼真的3D体验。

  • 六个摄像头从不同角度捕捉您。
  • AI融合视频流,在3D光场显示器上渲染。
  • 近乎完美的毫米级头部追踪,每秒60帧,实时完成。

结果是更自然、更沉浸的对话体验。我们与HP合作,首批Google Beam设备将于今年晚些时候面向早期客户推出。

Google Beam 概念图

示意图:未来通讯体验

Google Meet 实时语音翻译

我们将Starline的底层技术(如实时语音翻译)引入Google Meet,帮助打破语言障碍。例如,当您在南美预订度假屋却不懂当地语言时,这项功能将非常有用。

User: Hi, Camilla. Let me turn on speech translation. It's nice to finally talk to you.

Camilla (Translated): Es bueno hablarte finalmente. No puedo esperar alquilar tu casa.

(演示对话示例)

今天,我们将此实时语音翻译功能直接引入Google Meet。英语和西班牙语翻译现已向订阅用户开放,更多语言将在未来几周内推出。

探索AI助手与智能代理

Project Astra

Astra探索通用AI助手的未来能力,它能理解您周围的世界。我们正开始将其引入产品。如今,Gemini Live 已具备Astra的摄像头和屏幕共享功能,您可以谈论任何所见。人们正以多种方式使用它,如准备面试或马拉松训练。此功能今日起向所有Android和iOS用户推出。

Project Mariner

这是一个能与网络交互并完成任务的代理。自去年12月作为早期研究原型发布以来,我们取得了很大进展:

  • 多任务处理: 最多可同时监管10个任务。
  • 示教与重复: 向其演示一次任务,它就能学会未来类似任务的计划。

Mariner的计算机使用能力将通过Gemini API向开发者开放,Automation Anywhere和UiPath等受信测试者已开始构建,并将于今年夏季更广泛地提供。我们正将Agent能力引入Chrome、搜索和Gemini应用。

Gemini App: 智能代理模式

假设您和两位室友想在奥斯汀找公寓,每人预算1200美元/月,需要洗衣烘干机或附近有自助洗衣店。通常这需要花费大量时间浏览。

使用代理模式,Gemini应用会在后台工作:

  • 从Zillow等网站查找符合条件的房源。
  • 在需要时使用Project Mariner调整非常具体的筛选条件。
  • 如果您想看房,Gemini使用MCP访问房源信息,甚至代您安排看房。

Gemini应用中的代理模式实验版将很快向订阅用户推出。

个性化智能: 个人上下文

将研究成果转化为现实的最佳方式是使其在您的现实中真正有用。这就是个性化的力量所在。我们正通过“个人上下文”实现这一点。

经您许可,Gemini模型可以以私密、透明且完全由您控制的方式,使用您Google应用中的相关上下文。

以Gmail为例,您可能熟悉我们的AI智能回复功能。现在想象一下,如果这些回复听起来像您本人,这就是个性化智能回复的理念。

Gemini可以为您完成几乎所有工作:查阅您在Drive中的笔记,扫描过去的预订邮件,在Google Docs中找到您的行程。它匹配您过去的问候语,捕捉您的语气、风格和常用词,然后自动生成回复。

此功能将于今年夏季在Gmail中向订阅用户提供。

个性化智能回复

"听起来就像你"

Felix: "嘿,要去犹他州公路旅行,记得你之前去过,有啥建议吗?"

你的个性化回复 (Gemini生成): "嗨 Felix!太令人兴奋了!犹他州超赞。记得我上次去锡安国家公园,每天开车最好别超过5小时。这里有一些我当时的笔记和行程单... [链接]"

开发者工具与模型更新

Gemini 1.5 Flash 更新

Gemini Flash是我们最高效的主力模型,因其速度和低成本深受开发者喜爱。今天,我们发布了更新版1.5 Flash

新款Flash几乎在所有维度都有所改进,在推理、代码和长上下文等关键基准上均有提升。实际上,它在LM竞技场排行榜上仅次于1.5 Pro。Flash将于6月初正式可用,Pro版本紧随其后。

文本转语音 (TTS) 预览

我们还为TTS引入了新的预览功能,首次支持基于原生音频输出的双人声多说话人。这意味着模型能以更富表现力的方式对话,捕捉我们说话时微妙的细微差别,甚至可以无缝切换到耳语般的声音

这支持超过24种语言,并且可以轻松地在语言间切换,模型可以用同一种声音开始说英语,然后切换到另一种语言,再切换回来。这项TTS功能今日起在Gemini API中可用。

Google 搜索: 全新 AI 模式

对于希望获得端到端AI搜索体验的用户,我们推出了全新的AI模式。这是对搜索的彻底重构。凭借更高级的推理能力,您可以向AI模式提出更长、更复杂的问题。用户提出的问题长度已是传统搜索的2到3倍

AI模式不仅提供信息,还为搜索带来了全新的智能水平。现在,我们将Project Astra的实时能力引入AI模式,称之为Search Live。通过摄像头,搜索可以看到您所见,并实时提供帮助,就像与搜索进行视频通话。

AI 正在生成摘要...

AI 模式,更智能的搜索体验

AI 赋能购物新体验

AI模式为Google购物带来全新智能。我们推出了虚拟试穿功能,帮助您了解款式上身效果。我们为此构建了一个专为时尚训练的定制生成模型。

虚拟试穿示意图

虚拟试穿

上传照片,即刻查看效果。

智能结账代理

搜索可以帮您以期望价格找到商品,并使用新的代理结账功能为您购买。

  • 点击追踪价格,选择尺码,设定目标价。
  • 搜索将持续检查商品网站,价格下降时通知您。
  • 若想购买,结账代理一键将商品加入购物车,并使用Google Pay安全购买。

新的视觉购物和代理结账功能将在未来几个月推出,虚拟试穿今日起可在Labs中试用。

Gemini 应用核心能力升级

Gemini Live

对话的互动性和自然度令人惊叹。支持超过45种语言,覆盖150多个国家。对话时长是应用内文本对话的5倍

现在包含摄像头和屏幕共享功能。所有这些都将免费在Android和iOS的Gemini应用中推出。未来几周,可连接日历、地图等应用。

深度研究 (Deep Research)

实时互动很棒,但有时需要深入研究复杂问题。从今天开始,深度研究将允许您上传自己的文件来指导研究代理。

很快,我们将允许您跨Google Drive和Gmail进行研究,轻松提取信息。

先进多媒体生成与内容认证

Veo (VO3)

发布我们最先进的模型 VO3,今日可用。视觉质量更佳,物理理解更强。飞跃在于:VO3带有原生音频生成功能,可以生成音效、背景声和对话。

Lyria 2

最近推出的Lyria 2能生成高保真音乐和专业级音频,包含人声独唱和合唱。今日起向企业、YouTube创作者和音乐人提供。

SynthID

两年前首创,在生成媒体中嵌入不可见水印。迄今已为100亿+份内容添加水印。我们新的SynthID检测器能识别图像、音频、文本或视频中是否包含SynthID。

Flow

一款为创意人士打造的新AI电影制作工具,结合Veo、Imagine和Gemini的精华。由创意人士为创意人士打造,今日发布。

围绕Gemini的更新:Gemini Live免费,深度研究和Canvas重大更新,多步操作的代理模式将至,Chrome中引入Gemini,以及用Imagine 4和VO3创作带声音的惊艳图像视频。

AI 订阅计划升级

今天,我们升级两项AI订阅计划:Google AI Pro 和全新的 Google AI Ultra

Google AI Pro

全球提供。您将获得全套AI产品,拥有比免费版更高的使用限额和特殊功能。包括原名Gemini Advanced的Pro版Gemini应用。

Google AI Ultra

专为开拓者和先驱者设计,他们希望获得Google最前沿的AI技术。该计划提供最高的使用限额,最早体验Google各项新功能和产品。今日在美国推出,很快将全球推广。

Android XR: Gemini 时代的平台

Android 16和Wear OS 6迎来大胆新设计和重大更新。未来几个月,Gemini将登陆您的手表、汽车仪表盘甚至电视。

我们正在构建 Android XR,这是Gemini时代首个Android平台,支持从头戴设备到眼镜等各种设备和用例。我们相信XR没有一刀切的方案。

  • 沉浸式头显: 用于观影、游戏或工作。
  • 轻便眼镜: 外出时使用,无需掏出手机即可获取及时信息。

Android XR是我们与三星共同打造,并为高通骁龙芯片优化。三星的Project Wuhan将是首款Android XR设备,今年晚些时候上市。

Android XR 设备示意图

多形态XR设备体验

我们与三星的合作扩展到眼镜领域。Gentle MonsterWarby Parker 将成为首批采用Android XR构建眼镜的合作伙伴。

AI 赋能社会: 启迪人心的实例

FireSat: 野火实时监测

与合作伙伴共建FireSat卫星星座,利用多光谱卫星图像和AI提供近实时火情洞察。可探测小至270平方英尺(约单车位车库大小)的火灾。首颗卫星已入轨,全面运行时,图像更新频率将从12小时缩短至每20分钟

Wing 无人机救援

在Helene飓风期间,Wing与沃尔玛和红十字会合作,通过无人机运送救援物资。在AI支持下,根据实时需求向北卡罗来纳州的YMCA避难所运送了食品和药品等关键物品。

这些是AI目前帮助社会的例子。想到今天的研究在短短几年内将成为现实,尤其鼓舞人心:无论是构建下一代有用的机器人、寻找致命疾病的治疗方法、推进纠错量子计算机,还是提供能安全带您去任何地方的全自动驾驶汽车。所有这一切都极有可能在数年内而非数十年内实现。

共同创造未来

改善生活的机会,我倍感珍惜。最近的经历让我对此深有体会。我和父母在旧金山,他们首先想体验Waymo。看着80多岁的父亲坐在前排完全被震撼,我以全新的视角看到了进步。这提醒我们,科技的力量是多么不可思议,它能激励、震撼并推动我们前进。

我迫不及待地想看到我们将共同创造出怎样激动人心的未来。谢谢大家。